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基于 改进 的 深度 神经 网 络 的 人 体 动作 识别 模型 


何 冰 依 ， 魏 Æ, K W WK RAN 


(成 都 信息 工程 大 学 计算 机 学 院 , 成 都 610225) 


摘 要 : 针对 现 有 人 体 动作 识别 方法 需 输 入 固定 长 度 的 视频 段 、 未 充分 利用 时 空 信息 等 问题 ， 提 出 一 种 基于 时 空 金字 
塔 和 注意 力 机 制 相 结合 的 深度 神经 网 络 模型 , 将 包 仿 时空 金字 塔 的 3D-CNN 和 添加 时 空 注 意 力 机 制 的 LSTM 模型 相 结 
合 ， 实 现 了 对 视频 段 的 多 尺度 处 理 和 对 动作 的 复杂 时 空 信息 的 充分 利用 。 以 RGB 图 像 和 光 流 场 作为 空域 和 时 域 的 输 
入 ， 以 融合 金字 塔 池 化 层 的 运动 和 外 观 特征 后 的 融合 特征 作为 融合 域 的 输入 ， 最 后 采用 决策 融合 策略 获得 最 终 动作 识 
别 结 果 。 在 UCF101 和 HMDB51 数据 集 上 进行 实验 ， 分 别 取得 了 94.2% 和 70.5% 的 识别 准确 率 。 实 验 结果 表明 ， 改 进 
的 网 络 模型 在 基于 视频 的 人 体 动作 识别 任务 上 获得 了 较 高 的 识别 准确 率 。 
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Improved deep convolutional neural network for human action recognition 


He Bingqian, Wei Wei, Zhang Bin, Gao Lianxin, Song Yanbei 
(College of Computer Science & Technology, Chengdu University of Information Technology, Chengdu 610225, China) 


Abstract: Aiming at the problem that the existing human motion recognition method needs to input a fixed length video segment 
and underutilize the spatiotemporal information, this paper proposed a deep neural network model based on the combination of 
space-time pyramid and attention mechanism. This improved architecture combined 3D-CNN including spatiotemporal 
pyramids with LSTM model with spatio-temporal attention mechanism, and realized multi-scale processing of video segments 
and full utilization of complex spatio-temporal information of actions. For the architecture, the inputs of spatial and temporal 
domain were RGB image and the optical flow, the input ofthe fusion domain was the fusion feature ofthe motion and appearance 
features of the pyramid pooling layer. Finally, the final motion recognition result was obtained through the decision fusion 
strategy. Experiments were performed on the UCF101 and HMDBSI datasets, achieving 94.2% and 70.5% recognition accuracy, 
respectively. The experimental results show that the improved network model achieves high recognition accuracy in video-based 
human motion recognition tasks. 
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分 类 构成 了 巨大 挑战 。 


引言 
为 了 突破 卷 积 神经 网 络 只 应 


] 全 图 像 这 一 局 限 
人 体 行为 识别 在 机 器 人 交互 、 虚 拟 现实 、 家 庭 和 公共 安全 ” 够 有 效 地 将 视频 分 析 中 的 运动 信息 


域 的 广泛 应 用 ， 使 其 正 逐 渐 成 为 计算 机 视觉 最 活跃 的 研究 CNN 卷 积 层 中 执行 三 维 卷 积 , 从 而 捕获 空间 和 时 间 维 度 的 区 


。 目 前 的 识别 算法 和 模型 可 以 大 概 地 分 为 两 类 ， 一 类 ”性 特征 ， 但 是 该 模型 仍然 不 能 充分 利用 视频 的 时 空 特征 。 
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于 传统 手 选 特征 的 识别 算法 号 3, 一 类 是 基于 深度 学 习 的 识 。 [6] 为 了 更 好 地 利用 视频 数据 中 的 时 间 信 息 , 提出 了 结合 空 
法 和 模型 {Hm 中 。 其 中 ， 基 于 深度 学 习 的 方法 在 备 类 具有 挑 和 时 


[i] Jo 


间 域 的 双流 卷 积 网 络 (two-stream convolutional networks), 


的 视频 数据 集 上 展现 出 了 优 于 传统 方法 的 较 大 优势 。 尽 管 。 ”两 个 卷 积 网 络 分 别 以 视频 数据 的 RGB 图 像 和 视频 帧 的 光 
， 如何 准 确 地 区 分 不 同类 别 的 行为 动作 仍然 存在 巨大 的 挑 ”为 输入 ， 然 后 提取 动作 表示 的 视频 帧 的 时 间 和 空间 特征 ， 
。 比 如 光照 或 遮挡 等 视频 环境 因素 、 动 作 类 别 的 类 间 和 类 ”通过 融合 分 类 识别 ， 该 模型 在 一 定 程度 上 利用 了 视频 序列 


异 、 视 频数 据 集 较 少 ， 这 些 问 题 都 对 和 鲁 棒 特征 提取 和 动作 空 特征 ， 但 是 由 于 只 关注 了 当前 步骤 的 卷 积 映射 ， 可 能 不 
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捕获 不 同类 别 动作 的 复杂 时 空 线索 


模型 都 仅仅 是 扣 


有 获 了 短 时 间 规 模 的 


题 ， 尤 其 是 对 视频 序列 能 够 较 好 有 效 建 模 匠 
(long short-term memory, LSTM) 
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的 变化 。 经 过 一 些 文献 .101519 的 


(recurrent neural networks, RNN) 能 在 一 定 程 


EF CNN 的 识别 
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解决 这 个 问 


ás F LSTM 


列 中 的 特征 。 


构 来 模拟 长 


合 网 络 的 多 种 方式 ， 提 


and attention mechanism, STPP and attention-mechanism network ) 。 
本 文 模型 首先 将 视频 序列 的 RGB B 
经 网 络 获取 时 空 卷 积 4 
X, (spatial temporal pyramid poo 


过 3D FRY 
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iras fu) 
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络 提取 至 
制 的 LSTM 模型 条 
类 结果 进 
E UCF101 和 HMDB51 上 进 
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而 这 些 特有 
针对 上 述 问题 ， 本 文 在 时 空 双流 卷 积 网 络 识别 模型 有 
[注意 力 机 制 的 深度 


络 模 型 (deep neural network combining spatial-temporal pyramid 


上 ， 提 出 了 一 种 
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级 特征 
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NI 
于 改进 的 深度 神 


的 动作 识别 分 类 方法 ， 以 此 来 融合 更 长 


合作 期 刊 


naXiV 合 人 其 
经 网 络 的 人 体 动作 识别 模型 


期 的 视频 序 


文献 [23] 提 出 了 通过 具有 稀 玻 采样 的 分 段 网 络 架 
期 时 间 结 构 。 文 献 [24] 通 过 顾 


究 在 时 间 和 空间 上 组 


了 一 利 


PF 时 空 融 合 方法 ， 并 且 认 为 双流 


网 络 应 该 在 最 后 的 卷 积 层 进行 融合 。 尽 管 上 述 文献 的 方法 或 模 


型 对 原始 双流 卷 积 


经 网 络 存 在 的 问题 进行 了 一 定 的 改善 ， 但 


是 仍然 存在 丢失 重要 的 时 空 线索 的 问题 ， 使 得 模型 不 能 获取 充 


分 的 人 体 动作 的 时 空 关系 ， 以 及 不 能 对 任意 长 度 和 
村 征 提取 的 问题 ， 大 都 需要 对 视频 段 进 行 好 
基于 对 上 述 问 题 的 考虑 , 本 文 在 文 上 


种 基于 结合 时 空 金字 塔 和 
动作 识别 模型 。 对 了 
本 文 对 原 C3D 网 络 进行 


时 空 金 


空 金字 塔 池 


的 视频 段 进 行 
F 动 的 预 处 理 。 
础 上 , 提出 了 


聚合 局 部 
[融合 策略 
FE 进行 有 效 融合 ， 最 后 将 时 空 3D 双流 网 
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[0 普通 LSTM 模型 品 


FP 进行 建 模 , 对 模型 分 
的 人 体 动作 分 类 结果 。 本 文 在 数 


[AN 


于 时 空 金字 塔 是 从 多 


够 得 到 更 深 


注意 力 机 秆 经 网 络 的 人 体 
直接 处 理 任意 长 度 的 视频 段 的 任务 ， 
单 改进 ， 一 个 卷 积 层 后 加 入 时 
能 够 生成 征 向 量 。 同 时 
度 对 特征 映射 进行 处 理 ， 使 得 模型 能 


征 表示 ， 从 而 提高 识别 精度 。 


对 于 捕捉 人 体 


动作 之 间 复 杂 的 时 空 线索 的 任务 ， 本 文 设计 了 添加 时 空 注意 力 


机 制 的 LSTM 模型 ， 该 模型 不 仅 能 


通过 时 空 注 意 力 机 币 
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mul 
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尝试 设计 能 够 有 效 利用 
经 网 络 的 动作 识别 模型 
方式 
融合 。 实 验 结 果 说 明 这 些 方 法 都 不 能 
对 


JEH 
CNN fi, — EIERE T DI] RGB 流 不 能 
信息 的 缺陷 ， 为 动作 识别 
也 被 广 
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行人 体 动作 识别 实验 , 实验 结果 


匡 于 结合 时 空 金字 塔 和 注意 力 机 制 的 深度 刘 
型 能 够 有 效 识别 视频 


深度 学 习 在 计算 机 
深度 学 习 的 方法 ， 尤 
到 了 广泛 的 研究 和 应 用 
具有 外 观 信息 还 具有 运动 信息 ! 
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在 模型 中 添加 了 时 空 特 生 
的 动作 特征 。 


和 获 人 体 动作 | 
F 融 合 模块 ， 使 得 模型 上 


才 间 信息 ， 还 能 


。 本 文 还 在 


不 丢失 重要 


2 ”结合 时 空 金字 塔 和 注意 力 机 制 的 深度 神经 网 络 人 
体 动 作 识别 模型 设计 


2.1 整体 框架 

A ocd H 
模块 : 结合 时 空 金字 塔 池 
间 与 时 间 域 的 特 得 


模型 。 


图 如 医 


化 的 时 空 
空 注意 力 机 制 的 长 期 短 时 记忆 


1 所 示 。 该 模型 主要 包含 三 个 


pum 
FE 融合， 包含 时 


对 于 第 一 个 模块 ， 本 文采 用 文献 [6] 的 时 空 双流 模型 和 文献 


[20] 中 的 C3D 网 络 结构 ， 并 对 其 


的 时 空 双流 
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息 ， 只 能 
20 在 UCF101 和 sports- 
上 训练 了 更 深 的 CNN 模型 ， 称 为 C3D 网 络 模型 。 该 模型 近 化 
于 一 个 3D 版 本 的 VGGnet 模型 站， 包含 了 一 个 3D 卷 积 滤波 器 
和 一 个 同时 对 时 间 域 和 空间 域 进行 操作 的 3D 池 化 层 。 文 献 


网 络 ， 通 过 对 视频 帧 的 光 流 训练 第 二 个 


IM 
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斥 寸 不 一 的 情况 ， 还 全 


也 化 和 2 个 全 连 j 
也 化 层 改 为 时 空 金字 塔 》 


f 
神经 网 络 网 络 者 


也 化 。 


通过 


[不 同 角 度 的 特 生 


深 的 特征 ， 从 而 提高 识别 精度 。 


积 层 的 过 滤器 数 


方法 带 来 了 一 定 的 性 能 增益 。 该 模型 


MEUM I oma, 
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原始 的 双流 卷 积 神经 网 络 模型 有 两 个 主要 问题 : 
由 于 只 包含 10 个 连续 上 
b) 该 模型 
两 个 分 类 器 的 输出 平均 而 
和 空间 流 之 间 的 时 空 关系 。 对 于 这 些 


a) 该 模 
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才 间 域 分 别 进行 训练 ， 最 终 预测 是 根据 
此 不 能 有 效 地 学 习 时 间 流 


问题 , 文献 [10] 提 出 了 一 种 


接 层 是 4096 个 单元 。 根 ] 
实验 研究 结果 ， 
WIESE, DS, TENDERE 
大 小 ， 步 长 为 1x1x1。 对 于 最 大 池 化 层 ， 除 了 第 


分 别 是 64、12 
ECHR! 


进行 改进 然后 形成 本 文 模型 中 
! 神 经 网 络 模块 。 时 间 流 和 空间 流 深度 卷 积 
昌 卷 积 层 、4 个 最 大 池 化 、1 个 时 空 金字 塔 
,即将 原来 C3D 网 络 的 最 后 一 个 最 大 
时 空 金字 塔 池 化 不 仅 能 解决 输入 
E 提 取 方 法 提取 出 更 
1L 体 来 说 ， 从 1 到 5 的 5 组 卷 
8、256、512、512，2 个 全 连 


9 对 卷 积 层 的 不 同 深度 的 内 核 


3x3x3 的 核 尺 寸 大 小 是 对 所 有 


卷 积 层 来 说 最 佳 


PF， 所 有 卷 积 层 均 采 用 3x3x3 的 内 核 


的 核 大 小 是 2x2x1， 


个 最 大 池 化 
ER 3 个 最 大 池 化 层 的 核 大 小 为 2x2x2。 第 


一 个 模块 直接 连接 到 第 三 个 模块 。 第 二 个 模块 主要 是 对 时 空 双 


流 提取 到 的 特 条 


行 融 合 ， 然 后 连接 到 第 三 个 模 甘 
空 注意 力 机 制 的 LSTM 模型 。 该 模块 在 第 一 模块 


中 不 包含 时 
的 STPP 层 进 
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行 。 第 三 个 模块 是 添加 了 注意 力 机 制 的 LSTM 模型 。LSTM 模 


型 本 身 作为 循环 神经 网 络 ， 能 够 通过 保存 时 间 序列 信息 来 捕获 


长 期 的 时 空 依赖 关系 ， 还 能 有 效 避 免 梯度 消失 现象 ， 而 该 模块 


较 于 原始 的 LSTM 模型 还 能 够 捕获 更 复杂 的 时 空 线索 ， 从 而 提 
高 识别 准确 率 。 总 体 而 言 ， 本 文 的 网 络 框架 包含 了 特征 级 的 数 


据 融 合 和 决策 级 的 融合 ， 通 过 这 两 种 层面 的 融合 方法 使 得 该 网 


络 模型 对 人 体 动作 的 识别 更 加 准确 。 


本 文 模型 在 ImageNet 上 进行 预 训练 和 微调 后 , 将 视频 序列 
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的 RGB 图 像 数据 和 视频 帧 的 光 流 数据 输入 到 该 模型 中 ， 通 过 
训练 两 个 三 维 卷 积 神经 网 络 来 提取 时 间 流 和 空间 流 特征 ， 再 利 
用 时 空 金字 塔 来 提取 固定 长 度 的 特征 向 量 ， 然 后 通过 两 个 全 连 
接 层 提 取 视 频 帧 的 深度 特征 。 同 时 利用 时 空 特征 融合 策略 融合 
从 STPP 层 中 提取 到 的 人 体 动作 深层 特征 ， 最 后 通过 包含 时 空 
注意 力 机 制 的 LSTM 模型 对 时 空 特征 进行 建 模 ， 进 而 获得 分 类 
结果 。 
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2.2 时空 金 字 塔 池 化 


图 1 结合 时 空 金字 塔 和 注意 力 机 制 的 深度 神经 网 络 的 人 体 动作 识别 模型 


合 方法 能 够 利用 两 种 特征 的 相关 性 来 生成 更 多 元 的 混合 特征 。 


为 了 对 任意 大 小 长 度 的 视频 序列 都 能 采用 本 文 模型 进行 处 


理 ， 本 文 利用 时 空 金字 塔 池 化 (STPP) 来 生成 固定 长 度 的 特征 


Is. FJ, BT SS 司 角度 对 卷 积 得 到 


的 特征 映射 进行 特征 提取 ， 能 一 定 程度 上 为 人 体 动作 识别 提高 


精度 。 


在 该 层 中 ， 可 以 输入 任意 大 小 和 长 度 的 视频 序列 。 假 定 输 


入 的 RGB 和 光 流 图 片 序列 的 大 小 为 1xhxw， 而 最 后 一 层 卷 积 
的 特征 映射 大 小 为 Tx 万 xW， 其 中 1 是 长 度 ( 帧 数 ), 7 为 池 化 


因此 ， 本 文 根 据 文献 中 的 研究 ， 提 出 了 时 空 特征 融合 框架 。 
对 于 模型 输入 的 第 1 段 视频 序列 , 可 以 在 第 一 模块 的 STPP 
层 得 到 两 个 STPP 特征 ， 将 其 表示 为 x* 和 xm ， 其 中 ，xe 代表 
第 t 段 序列 的 RGB 特征 ， 即 外 观 特征 ， x" 代表 第 + 段 序列 的 
光 流 特 征 ， 即 运动 特征 。 本 文采 用 早期 融合 方法 〈 元 素 串联 
来 融合 上 述 两 个 STPP 特征 ， 并 生成 一 个 新 的 融合 特征 x/ 。 然 
后 ， 将 所 得 到 的 混合 特征 通过 一 个 4096 个 单元 的 全 连接 层 再 
链接 到 本 文 的 第 三 模块 ， 即 利用 长 时 短期 记忆 模型 对 融合 特征 


立方 体 的 时 间 大 小 , h, 瓦 和 W、 丈 是 帧 的 高 度 和 宽度 。 本 文 将 


对 输入 到 STPP 的 每 个 时 空 立方 体 的 响应 值 和 最 大 化 操作 集中 
到 一 起 。 不同 于 文献 9 中 一 般 滑动 窗口 的 池 化 操作 , STPP 层 的 
滑动 窗口 大 小 是 在 给 定 池 化 水 平 内 动态 调整 的 。 


简单 来 说 ， 将 


P(p, p,) 作为 时 空 池 化 水 平 。 那 么 ， 每 个 立方 体 大 小 为 


Po ps "a > Kr, p 是 时 间 池 化 水 平 


, 


空间 池 化 


水 平 。 由 于 每 段 视频 序列 的 时 间 尺 度 比 对 应 的 空间 尺度 小 ， 本 
文 将 p, 的 值 设 为 1。 当 p=4,2,1:p,=1， 每 个 输入 的 视频 片段 
会 生成 固定 长 度 的 描述 符 ， 从 而 STPP 通过 聚合 局 部 时 空 信息 


形成 固定 长 度 的 特征 向 量 。 
2.3 ”时 空 特征 融合 


对 于 基于 视频 的 人 体 动作 识别 ， 提 取 的 特征 不 仅 是 静态 的 
视觉 特征 ， 还 有 动态 的 时 间 运 动 特征 。 合 适 且 效果 好 的 特征 融 


进行 建 模 以 及 分 类 。 
2.4 包含 时 空 注意 力 机 制 的 LSTM 模型 

在 该 模块 中 ,本 文 设计 了 包含 时 空 注 意 力 机 制 的 LSTM B 
型 (S-P attention-mechanism LSTMO 来 对 前 期 获取 的 深层 特征 
进行 建 模 。LSTM 作为 一 种 循环 神经 网 络 ， 能 够 通过 保存 时 间 
序列 信息 来 捕获 长 期 的 时 空 依赖 关系 ， 同 时 ， 不 同 于 原始 的 
RNN,LSTM 在 经 过 反 向 传播 训练 后 不 会 出 现 梯度 消失 的 情况 。 
用 于 人 体 动 作 识 别 的 视频 序列 往往 包含 很 多 时 空 线索 ， 如 果 
接 将 第 一 模块 的 全 连接 层 的 特征 输入 到 LSTM 中 ,模型 将 会 不 
足以 捕捉 不 同 动作 的 复杂 时 空 线索 ， 因 此 ， 为 了 能 够 进一步 捕 
捉 到 有 用 的 特征 , 本 文 在 基础 的 LSTM 模型 中 加 入 了 时 空 注意 
力 机 制 。 

LSTM 的 一 个 单元 如 图 2 所 示 ， 图 示 中 * 代 表 a 或 者 m。 本 
文 将 第 一 模块 全 连接 层 得 到 的 高 维特 征 描述 为 xX“ 和 X” ,分 别 
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表示 第 t 段 视频 序列 的 外 观 和 运动 特征 ， 将 第 二 模块 全 连接 层 


得 到 的 融合 特征 描述 为 XÍ o X, 作为 S-P Attention LSTM 模块 
的 输入 。 
js fo] 分 别 代表 输入 门 、 遗 忘 门 和 输出 门 ，g 

Ks Y 分别 代表 记忆 调制 状态 、 内 核 状态 记忆 状态 )、 隐 基 

状态 和 输出 。 对 于 融合 特征 xX/ ， 本 文 将 其 输入 到 普通 LSTM 
中 ， 其 实现 公式 如 下 : 

if =0,(wiX/ & wLh/ , bí) (1) 

f! =0 o, (wX! + wih +b/) (2) 

of =0,(w X! +wf hf, b) (3) 

gf -tanh(w/, XÍ +w hf, +b!) (4) 

of =f Oc ti Og © 

hf =0f Otanh(c/) (6) 


其 中 ， n 表示 前 一 个 隐藏 状态 ，w/, 和 w, 分 别 是 输入 向 量 和 
隐藏 状态 的 权重 矩阵 ，p/ 代表 偏差 向 量 ，c() taho 分 别 表 
示 激 活 函 数 中 的 sigmoid 函数 和 tanh 函数 ，Q 表示 哈达 玛 积 ， 


即 矩阵 元 素 对 应 相 乘 。 
* 
X, 
»* 
Wxg 
um 
EN ^ ! 
r Whg | 
Wyf : * 
Vx, 
和 QU ~ 
i ~y Whi | 
* * I 
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Whf : 
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图 2 普通 LSTM 模型 的 一 个 单元 
2.5 LSTM 的 时 空 注意 力 机 制 

LSTM 的 时 空 注意 力 机 制 模型 如 图 3 所 示 ， 时 空 注意 力 机 
制 同时 作用 于 空间 域 和 时 间 域 。 空间 域 的 输入 为 x* ,时间 域 的 
输入 为 XX”, 为 防止 描述 重复 , 将 该 模块 的 输入 统一 表示 为 X ， 
其 中 * 代 表 a 或 者 m。 为 了 找到 第 t 段 视频 序列 中 具有 重要 描述 
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算 过 程 如 下 。 
以 LSTM 单元 的 前 一 个 隐藏 状态 n ,为 例 ， 首 先 利 用 式 
(07)(8) 来 计算 第 + 段 视频 序列 中 第 个 特征 向 量 对 第 个 特征 向 
量 的 空间 注意 力 概率 o! (n,k): 


@ (n,k) = u, tanh (Aj; , + AX; (n,k)+b;) (7) 


exp(wfà; (n.k)) 
y exp (wr á, ; (n.1)) 
INPIUCUTEDUCEDITI ES 
是 空间 注意 力 机 制 的 偏 置 向 量 ，Z 是 第 r 段 视频 序列 中 的 帧 数 
目 ，@* 是 未 规范 化 的 注意 力 概 率 。 然后 ,利用 式 (9) 获 取 第 nn 个 
特征 向 量 的 空间 特征 向 


a; (n,k)= 


(8) 
其 中 : ~ A 


lim] 
"i 


I; (n) - Yi (n5) X; (n.k) n=1,…,T (9) 
在 得 到 具有 空间 重要 性 的 空间 特征 向 量 L (n) 后 ， 本 文 对 
其 进行 时 间 注 意 力 计算 ， 同 空间 注意 力 计 算 类 似 ， 先 计算 时 间 
注意 力 概率 fp*(n) ， 计 算 公 式 如 下 : 
Ë (n) - utanh(B,h, , +B L (n) *b;) (10) 
"T 
pije AA) an 


È ew(w' EG) 
其 中 由、B; 、Bx 、w8# 是 时 间 注 意 力 机 制 的 权 值 矩 阵 ，by 
是 时 间 注 意 力 机 制 的 偏 置 向 量 ，7 是 第 t 段 视频 序列 的 总 特征 
HEX p(n) 反映 了 第 n 个 特征 向 量 对 第 t 段 视频 序列 的 时 间 

要 性 。 根 据 式 (12) 计 算 最 后 时 空 注意 力 捕捉 到 的 重要 的 时 空 
特征 o. : 


o SIONO, a2) 


n-l 


由 于 此 时 得 到 的 上 下 文 特 征 o 与 当前 步骤 的 预测 是 紧密 


相关 的 ， 本 文 将 其 作为 LSTM 模型 除了 原本 特征 向 量 x? 之 外 
的 额外 输入 ， 具 体 计算 公式 如 下 ， 

if 2o. (wx X; Ww, wh, +b) (13) 

f 2o (wy X *w, 0, - wh; b) (14) 

o; 2 o. (w,,X; + wy; + Woh +b) (15) 

g - tanh(w,, X; + wy PD, + wh tb.) (16) 

c-f Oc +} Og (17) 

h; 2o; O tanh(c;) (18) 


其 中 : w 是 LSTM EA PRUE, b 是 偏 置 向 量 ，e() 和 
tanh() 分 别 表示 激活 函数 中 的 sigmoid 函数 和 tanh 函数 ，@ 表 


意义 的 特征 向 量 ， 本 文 对 每 个 流 先 进行 空间 注意 力 运 算 ， 其 计 


示 哈 达 玛 积 ， 即 矩阵 元 素 对 应 相 乘 。 
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2.6 决策 融合 规则 
决策 融合 是 将 多 个 基 分 类 器 的 结果 ， 按 照 一 定 的 规则 融合 
成 一 个 全 局 的 结果 ， 消 除 决策 本 身 或 决策 之 间 的 信息 缺陷 ， 提 
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图 3 添加 时 空 注意 力 机 制 的 LSTM 模型 


实验 中 ， 本 文 将 两 个 数据 集 分 割 成 三 份 ， 均 对 其 进行 训练 
和 测试 。 其 中 ,每 份 UCF101 的 视频 序列 有 9500 段 ，HMDB51 
有 3700 个 视频 段 。 由 于 本 文 网 络 模型 有 时 间 流 、 空 间 流 和 融合 


升 全 局 结果 的 可 靠 性 和 稳定 性 3。 本 文 的 网 络 结构 包含 三 个 间 
分 ， 一 部 分 是 在 卷 积 神经 网 络 的 STPP 层 进行 特征 融合 后 的 融 
合流 ， 另 两 个 部 分 是 在 将 特征 融合 后 仍然 保留 时 间 流 和 空间 流 
之 后 的 结构 ， 并 且 加 入 注意 力 机 制 ， 形 成 两 个 以 捕获 复杂 的 时 
空 线索 对 融合 流 的 识别 结果 进行 修正 的 分 支 。 因 此 对 于 数据 集 
的 每 一 个 分 割 数 据 集 ， 网 络 结构 最 后 都 有 三 个 基 分 类 器 的 识别 
结果 。 对 于 这 三 个 基 分 类 器 得 到 的 分 类 结果 ， 采 用 决策 融合 的 
方式 得 到 最 终 的 分 类 输出 。 
设 C,(X)(j =12,…,N) 为 最 终 融 合 分 类 结果 ， 则 融合 规则 
j 公 式 表 述 如 下 ， 


— 


可 


3 
COO=ag max (Yo m(p&le)) (19) 


其 中 : x 为 第 ;个 基 分 类 器 的 源 特征 ，i=12.3 In(p(Xje)) 
为 分 类 器 选取 每 一 类 别 ( c, ) 分 类 时 产生 的 可 信和 度 ， 
j=1,2, N> 0 表示 融合 分 类 的 权 值 ， 其 值 为 每 个 基 分 类 器 
的 分 类 精度 ， 即 单 体 分 类 精度 。 
于 是 ， 通 过 时 域 、 空 域 和 融合 域 的 基 分 类 器 获得 源 分 类 结 
,再 利用 式 (19) 对 源 分 类 结果 进行 融合 , 得 到 数据 集 的 每 一 分 
割 集 的 识别 分 类 结果 。 


3 ”实验 分 析 
3.1. 数据 集 和 评估 指标 


N 


Tn 


UCF101 和 HMDB51. UCFI01 包含 13320 个 视频 段 , 共 101 个 
动作 类 别 ， 涵 盖 了 较 大 范围 的 人 体 动作 ， 比 如 化 妆 、 打 字 、 吹 
头发 、 骑 马 、 跳 高 等 。 该 数据 集 的 大 多 数 视频 是 在 无 约束 的 真 
实 环境 下 拍摄 的 ， 因 此 视频 存在 像素 低 、 受 到 如 光照 、 遮 挡 等 


环境 因素 影响 的 问题 。HMDB51 包含 6766 个 视频 段 ， 共 51 个 
动作 类 别 。 该 数据 集 的 视频 大 多 来 源 于 电影 剪辑 片段 ， 像 素 较 


低 ， 主 要 的 动作 类 别 有 亲 吻 、 拥 抱 、 骑 马 和 开 枪 等 。 


本 文 实验 的 数据 集 来 源 于 两 个 公开 的 视频 动作 识别 数据 集 : 


流 三 个 部 分 ， 对 于 数据 集 的 每 一 个 分 割 集 ， 本 文 对 上 述 三 个 基 
分 类 器 的 结果 进行 线性 加 权 融 合 得 到 分 割 集 的 最 终 动 作 识别 准 
确 率 。 线 性 加 权 融 合 的 识别 置信 度 权 值 为 自 适应 动态 权 值 ， 
测试 集 在 基 分 类 器 的 识别 结果 计算 得 出 。 在 得 到 数据 集 的 三 个 
分 割 集 的 最 终 识别 准确 率 后 ， 对 三 个 分 割 集 的 结果 进行 线性 加 
权 平 均 ， 从 而 得 到 该 数据 集 的 最 终 识别 准确 率 。 本 文 将 数据 集 
的 最 终 识 别 准确 率 值 作为 人 体 动 作 识 别 模型 的 评估 指标 。 
3.2 Wl 

与 图 像 数 据 集 相 比 ， 人 体 动 作 识别 的 数据 集 相 对 较 小 ， 而 
对 于 较 深 的 神经 网 络 ， 数 据 集 较 小 很 容易 使 得 网 络 陷入 过 拟 合 
现象 , 因此 对 本 文 模型 进行 预 训 练 。 对 于 输入 为 RGB 图 像 的 空 
间 域 网 络 ， 直 接 采 用 图 片 数 据 库 ImageNet29 对 其 进行 预 训练 。 
输入 的 训练 图 片 为 经 过 数据 增强 扩大 后 的 训练 集 ， 然 后 对 其 进 
行 随机 位 置 裁剪 ， 并 将 输入 大 小 调整 为 224x224 。 对 于 输入 为 
光 流 数据 的 时 间 流 网 络 ， 采 用 从 TL-V127 中 提取 到 的 动作 视 
频 光 流 数 据 , 为 保证 和 RGB 数据 同 区 间 , 再 通过 线性 变换 将 光 
流 数 据 离散 到 [0,255] 的 区 间 上 。 然后 对 预 训练 空间 流 网 络 的 第 
一 层 的 滤波 器 在 通道 中 做 平均 运算 ,将 平均 后 的 数据 复制 20 次 
后 作为 时 间 网 络 的 初始 化 数值 。 
3.8 ”实验 结果 与 分 析 

在 Linux 系统 搭建 的 TensorFlow 平台 下 进行 实验 。 深 度 神 
经 网 络 容易 陷入 过 拟 合 现象 ， 因 此 本 文 将 模型 中 空间 流 和 时 间 
流 dropout 层 的 丢失 率 分 别 设置 为 0.7 和 0.8。 空 间 域 初始 的 学 
习 率 设置 为 103, 在 迭代 15000 次 后 设置 为 104, 在 迭代 30000 
次 后 停止 训练 。 时 间 域 初始 的 学 习 率 设置 为 3x103 EERE 
20000 次 后 每 20000 次 学 习 率 缩小 为 原来 的 10， 最 大 迭代 次 
数 为 80000 次 。 
通过 本 文 模型 的 第 一 模块 来 分 别提 取 视 频 序列 的 运动 特征 
和 外 观 特征 。 考 虑 到 STPP 层 不 同 池 化 水 平 对 动作 识别 任务 有 
不 同 的 影响 ， 于 是 设计 不 同 池 化 水 平 的 对 比 实验 ， 该 实验 结果 
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来 源 于 仅 对 第 一 模块 的 双流 三 维 卷 积 神经 网 络 进行 训练 及 测试 ” 塔 融合 模型 。 从 表 4 可 以 看 出 ， 本 文 提出 的 方法 相 较 于 近 几 年 
的 动作 识别 准确 率 。 本 文 考虑 STPP 两 种 池 化 水 平 : 的 经 典 算法 更 能 精确 地 识别 视频 序列 中 的 人 体 动 作 。 
{2x2xLllxlx 寺 和 1{4x4xL2x2xlL1xlxl， 分 别 描述 为 STPP- 表 4 不 同方 法 在 UCF101 和 HMDB51 数据 集 上 的 动作 识别 准确 率 
1 和 STPP-2, 然 后 在 UCF101 数据 集 第 一 分 割 视频 序列 (split1) 方法 Year UCF101 (%) HMDB51 (%) 
上 进行 实验 。 由 表 1 可 知 ， 当 STPP 池 化 水 平 为 Two-steaml! 2014 88.0 59.4 
íAx4xL2x2x11x1x1) 时 ， 动 作 识 别 准确 率 均 优 于 STPP-1 和 C3DPol 2015 85.2 - 
最 大 池 化 ， 因 此 在 后 续 实 验 中 ，STPP 的 池 化 水 平 都 设置 为 此 Two-steam VGGP4 2016 92.5 65.4 
标准 。 由 表 1 还 可 以 看 出 ， 相 同 网 络 结构 下 ， 时 间 域 的 识别 率 SPN-VGG-16P5l 2017 932 66.1 
高 与 空间 域 的 识别 率 ， 这 说 明 运 动 信 息 比 外 观 信息 更 能 表达 人 本 文 方法 94.2 70.5 
体 动作 信息 。 4 iis 
表 1 STPP 层 不 同 池 化 水 平 下 的 动作 识别 准确 率 比较 nau 
池 化 标准 空间 域 (%) 时 间 域 (%) 前 基于 深度 学 习 的 方法 已 经 广泛 应 用 到 模式 识别 等 各 个 
Max pooling 82.76% 85.78% 领域 的 研究 组 中 ， 对 于 人 体 动作 识别 任务 ， 本 文 提出 了 改进 后 
STPP-1 82.1896 87.2696 的 结合 时 空 金字 塔 和 注意 力 机 制 的 深度 神经 网 络 模型 ， 构 建 了 
STPP-2 85.74% 89.91% 时 空 双流 深度 神经 网 络 架 构 。 将 本 文 横 型 先 在 ImageNet 上 进行 
表 2 展示 了 在 本 文 模型 第 三 模块 的 LSTM 模型 中 使 用 时 空 ” 预 训 练 和 微调 ， 然 后 应 CS UCF101 和 HMDB51 数据 集 上 , 38 


注意 力 机 制 与 否 的 动作 识别 率 结果 ， 该 识别 率 结果 由 两 个 数据 ”过 融合 时 空 网 络 与 融合 流 最 后 分 别 取 得 了 94.2% 和 70.5% 的 识 
集 的 三 个 分 割 集 的 识别 率 结果 加 权 平 均 得 到 。 由 表 2 可 以 看 出 ， ” 别 准 确 率 。 jn 出 的 改进 深度 学 习 模 型 对 数据 集 
在 时 间 域 和 空间 域 上 使 用 添加 注意 力 机 制 的 LSTM 模型 比 不 使 《 人 体 动作 能 够 有 效 识 别 ， 但 是 对 于 将 其 应 用 到 实际 商业 应 用 中 
用 注意 力 机 制 的 动作 识别 准确 率 高 ， 该 实验 也 证 明 添 加 时 空 注 ” 还 有 一 定 的 距离 。 因 此 ， 今 后 可 以 对 环境 因素 影响 较 大 或 噪声 
意 力 机 制 的 LSTM 模型 对 人 体 动作 识别 任务 更 有 效 。 较 多 的 视频 进行 鲁 棒 性 的 算法 研究 。 
表 2 LSTM 模型 使 用 注意 力 机 制 与 否 的 动作 识别 准确 率 比较 参考 文献 ; 
注意 力 机 制 域 UCF101 (%) HMDB51 (%) 
空间 域 89.73% 67.95% [1] Mur O, Frigola M, Casals A. Modelling daily actions through hand-based 
is 时 间 域 91.02% 68.13% spatio-temporal features [C]// Proc of Imternational Conference on 
"T" 空间 域 92.5294 68.1695 Advanced Robotics. Piscataway, NJ: IEEE Press, 2015: 478-483. 
T 时 间 域 93.57% 70.52% [2] Liu Fang, Xu Xiangmin, Qiu Shuoyang, et al. Simple to complex transfer 
结合 时 空 金字 塔 和 注意 力 机 制 的 深度 神经 网 络 模 型 对 人 体 learning for action recognition [J]. IEEE Trans on Image Processing, 2016, 

三 动作 识别 任务 的 识别 准确 率 如 表 3 所 示 。 对 于 数据 集 的 每 一 个 25 (2): 949-960. 

(S) 分 割 集 的 识别 准确 率 ， 均 是 利用 决策 级 融合 的 方式 对 上 述 模型 [3] Uddin A, Joolee J B, Alam A, et al. Human action recognition using adaptive 
中 时 间 域 、 空 间 域 和 融合 域 的 基 分 类 器 结果 进行 线性 加 权 融 合 local motion descriptor in Spark [J]. IEEE Access, 2017, 5: 21157-21167. 
得 到 。 再 对 三 个 分 割 集 的 结果 线性 加 权 平 均 得 到 相应 数据 集 的 [4] RRR, ERR. 一 种 基于 深度 图 去 噪 与 时 空 特征 提取 的 动作 识别 方 
最 终 动作 识别 准确 率 。 法 D. 现代 工业 经 济 和 信息 化 , 2017, 2017 (5): 64-68. (Huang Xiaohui, 

表 3 本文 模 型 的 人 体 动作 识别 准确 率 Dong Chaojun. The depth map denoising and spatio-temporal feature 
分 割 数 据 集 UCF101 (%) HMDB51 (%) extraction for human action recognition [J]. Modern Industrial Economy and 
Splitl 93.9595 69.16% Informationization, 2017, 2017 (5): 64-68. ) 
Split2 94.67% 71.08% [5] KA, 吴 剑 章 , 汤 嘉 立 , 等 . 基于 时 空 图 像 分 割 和 交互 区 域 检测 的 人 体 
Split3 94.13% 70.86% 动作 识别 方法 [J]. 计算 机 应 用 研究 , 2017, 34 (1): 302-305. (Zhang Jie, 
线性 平均 94.21% 70.50% Wu Jiangzhang, Tang Jiali, et al. Human action recognition method based 
将 本 文 方法 和 近 几 年 动作 识别 领域 比较 典型 的 深度 学 习 方 on spatio-temporal image segmentation and interactive area detection [J]. 
法 或 网 络 模型 分 别 在 UCF101 和 HMDBSI 这 两 个 数据 集 上 的 Application Research of Computers, 2017, 34 (1): 302-305. ) 
iH 别 准确 率 进 行 对 比 。 这 些 方 》 法 分 M EI 别 是 文献 0] 提 出 的 双流 卷 H [6] Simonyan K, Zisserman A. Two-Stream convolutional networks for action 
网 络 模型 (Two-stream convolutional network); 文献 CO 提出 的 recognition in videos [J]. Advances in Neural Information Processing 
C3D 网 络 模型 (3D Convolutional Networks )， 该 模型 训练 了 更 Systems, 2014, 1 (4): 568-576. 


深 的 CNN 网 络 ， 文献 24 提 出 的 时 空 融合 网 络 ， 其 网 络 结构 是 [7] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale 


双流 VGG 模型 ， 以 及 文献 29 在 文献 2 基础 上 提出 的 多 层 金字 image recognition [EB/OL]. (2015-04-10) . https://arxiv. org/abs/1409. 1556. 
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